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一 种 基于 双向 LSTM 的 联合 学 习 的 中 文 分 词 方法 


FEL, H 思 ， 徐 爱 萍 
(武汉 大 学 计算 机 学 院 , 武汉 430072) 


摘 要 : 中 文 分 词 是 中 文 自然 语言 处 理 任务 的 关键 技术 之 一 。 针 对 现 有 的 基于 深度 学 习 的 神经 网 络 模 型 通常 都 是 对 单 
一 的 语料库 进行 训练 学 习 ， 提 出 了 一 种 大 规模 的 多 语料库 联合 学 习 的 中 文 分 词 方法 。 语料库 分 别 为 简体 中 文 数据 集 
(PKU、MSRA、CTB6) 和 繁体 中 文 数据 集 (CITYU、AS)。 每 一 个 数据 集 的 输入 语句 的 句 首 和 名 尾 分 别 添加 一 对 标 
志 符 。 应 用 BLSTM (双向 长 短 时 记忆 模型 ) 和 CRF (条件 随 机 场 模型 ) 对 数据 集 进行 单独 训练 和 多 语料库 共同 训练 的 
实验 ， 结 果 表 明 大 规模 的 多 语料库 共同 学 习 训练 能 取得 良好 的 分 词 效果 。 

关键 词 : 中 文 分 词 ; 大 规模 语料库 ; 联合 学 习 ; 双向 长 短 时 记忆 模型 
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Joint learning method based on BLSTM for Chinese word segmentation 


Zhang Dengyi, Hu Si, Xu Aiping 
(School of Computer, Wuhan University, Wuhan 430072, China) 


Abstract: Chinese word segmentation is one of the key technologies of Chinese natural language processing tasks. The existing 
neural network models based on deep learning are usually trained on single criterion corpora. This paper proposed a joint learning 
method based on bi-directional long short-term memory neural network and Conditional Random Fields for large-scale corpora. 
The corpora were composed of simplified Chinese data sets (PKU, MSRA, CTB6) and traditional Chinese data sets (CITYU, 
MSR) . A pair ofidentifiers is added to the beginning and end of each input sentence ofthe data set. The results ofthe experiments 


show that the effective method has good effect on Chinese word segmentation for such large-scale corpora. 


Key words: Chinese word segmentation; large-scale corpora; joint learning; long short-term memory neural network model 


能 不 太 相 同 ， 但 是 相同 的 问题 都 是 : 如 何 根据 汉字 的 上 下 文 给 
汉字 打上 一 个 合适 的 标签 。NLP 中 的 序列 标注 任务 有 ， 中 文 分 
基于 中 文 的 自然 语言 处 理 任 务 中 ， 由 于 汉语 的 书写 习惯 ， 词 、 词 性 标注 、CHUNK 识别 、 命 名 实体 识别 、 关 键 词 抽取 、 语 
汉语 中 的 词语 不 像 英语 等 有 分 隔 符 ， 因 此 中 文 分 词 是 中 文 自 然 义 角色 标注 。 常 用 的 标注 方法 有 支持 向 量 机 (SVM) 证， 最 大 
语言 处 理 关 键 基础 技术 之 一 ， 是 其 他 中 文 文本 任务 (如 命名 实 Ki (maximum entropy, ME) 模型 6， 隐 马尔 可 夫 (HMM) 模型 


体 识别 、 词 性 标注 、 机 器 翻译 等 ) 的 前 期 重要 的 预 处 理 环节 。 多， 条 件 随机 场 CCRFO BUD), 
分 词 的 准确 性 对 中 文 自然 语言 处 理 尤 其 重要 。 由 于 中 文中 存在 随 着 深度 学 习 方法 的 发 展 ， 一 些 神经 网 络 模 型 也 被 成 功 应 
字 多 意 、 一 词 多 意 的 情况 ， 在 不 同 的 语 境 下 存在 不 同 的 分 词 ”用 于 中 文 分 词 任务 。Zheng 等 人 四 首先 提出 了 基于 神经 网 络 的 
方式 ， 中 文 分 词 一 直 是 中 文 自然 语言 处 理 任务 中 的 难点 。 分 词 模型 ， 采 用 的 Collobert 等 人 中 提出 的 方法 进行 中 文 分 词 和 
近年 来 ， 大 多 数 方法 都 将 中 文 分 词 作 为 一 个 序列 标注 问题 。 词性 标注 , 将 神经 网 络 模型 用 于 预 训练 词 答 入 , Collobert 5& AU! 


Tu 


N, 对 给 定 的 一 段 文 本 , 为 句 中 每 个 字符 分 配 一 个 标签 , 分 词 任 ”设计 了 SENNA 系统 ， 利 用 神经 网 络 解 决 英文 序列 标注 问题 。 
务 转换 为 一 个 有 监督 的 分 类 问题 。 所 谓 “ 序 列 标注 ”， 就 是 说 对 ”Zhao 等 人 03] 将 非 监督 的 学 习 方 法 应 用 于 有 监督 的 训练 中 进行 
于 一 个 一 维 线 性 输入 序列 ,给 线性 序列 中 的 每 个 元 素 打 上 标签 ”中文 分 词 任务 。 以 邻接 类 别 (accessor variety) 作为 非 监督 学 习 
集合 中 的 某 个 标签 。 所 以 ， 其 本 质 上 是 对 线性 序列 中 每 个 元 素 ”的 分 词 标准 ， 对 未 标注 的 语 料 进行 非 监督 学 习 训 练 得 到 的 分 词 
根据 上 下 文 内 容 进行 分 类 的 问题 。 一 般 情况 下 ， 对 于 自然 语言 ”结果 作为 特征 项 输入 至 CRF 层 对 有 标注 的 语 料 进 行 有 监督 的 
处 理 任 务 来 说 ， 线 性 序列 就 是 输入 的 文本 ， 一 个 汉字 就 是 线性 训练， 训练 效果 比 直 接 用 CRF++ 模 型 训练 更 好 。Chen SEA B 
序列 的 一 个 元 素 , 而 不 同 的 NLP 任务 其 标签 集合 代表 的 含义 可 扩展 了 LSTM Clong short-term memory) 长 短 时 记忆 神经 网 络 


H 


HT 
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模型 用 于 中 文 分 词 任务 ， 
长 距离 依赖 关系 的 问题 ， 


解决 了 传统 的 神经 网 络 模 型 不 能 学 习 
取得 了 较 好 的 分 词 效 果 。Zhang 等 人 


四 提出 了 一 种 基于 词 向 量 的 分 词 的 神经 网 络 模型 ， 将 卷 积 神经 


网 络 和 LSTM 结合 ， 


模型 输入 端 特 征 向 量 包含 字符 嵌入 


(character embeddings) 和 预 训练 语料库 学 习 到 的 词 嵌 入 (word 


embeddings)。 


许多 研究 表明 ，LSTM 神经 网 络 模型 在 序列 标注 任务 中 能 


取得 不 错 的 效果 .Huang 
合 ,对 序列 标注 任务 中 的 


等 人 (9 第 一 次 将 双向 LSTM 和 CRF 结 
KE VEI 4E benchmark tasks 进行 训练 。 


该 模型 在 词性 标注 任务 
(数据 集 为 CoNLL200 


CoNLL2003) 中 均 取 得 了 较 好 的 性 能 。 双 向 LSTM 可 以 对 目标 


(数据 集 为 PTB), CHUNK 识别 任务 
0) 和 命名 实体 识别 任务 (数据 集 为 


词 同 时 学 习 上 下 文 信息 ， 


签 信息 。BLSTM-CRF 模型 具有 较 好 的 鲁 棒 性 ， 该 模型 对 词 肉 


CRF 层 可 以 学 习 训练 得 到 句子 级 的 标 


入 的 依赖 性 更 小 。Lample 等 人 [7 运用 双向 LSTM 和 CRF 模型 


做 命名 实体 识别 的 任务 ， 


使 用 基于 字符 的 词 向 量 和 基于 词 的 词 


向 量 学 习 特 征 ， 获 取 被 标记 词 的 拼写 组 成 和 被 标记 词 在 语料库 


中 的 出 现 位 置信 息 ， 该 模型 在 英语 、 德 语 、 和 荷兰 语 和 西班牙 语 


的 语料库 中 的 准确 率 达 到 state-of-the-art 的 效果 。Cai 等 人 0 应 
用 LSTM 模型 的 变 体 于 中 文 分 词 任务 , 提出 的 模型 结合 了 门 循 


环 (GRU ) 神经 网 络 模型 和 LSTM fi, GRU 模型 直接 生成 基 


于 字符 的 词 向 量 的 训练 所 得 到 的 候选 的 分 词 结果 ，LSTM 模型 


Rem. 


任务 能 达到 不 错 的 效果 。 


于 对 获得 的 分 词 结果 进行 评估 。 结 合 两 种 模型 的 处 理 的 分 词 


尽管 基于 神经 网 络 忆 


黄 型 的 方法 取得 了 巨大 的 成 功 ， 但 一 些 


问题 仍然 没有 得 到 很 好 的 解决 。 一 个 显著 的 缺点 是 这 些 方 法 很 


少 考虑 到 知识 的 整合 。 六 


上 试 中 出 现 OOV Cout-of-vocabulary) 情 


况 ， 不 在 训练 集 词 表 中 的 词 在 测试 时 不 能 够 识别 并 进行 分 词 。 
通常 情况 下 ,模型 都 是 分 别 对 不 同 语料库 进行 单一 的 训练 学 习 ， 


而 没有 整合 语料库 利用 多 方面 的 信息 。 事 实 上 ， 由 于 不 同 的 语 
料 库 的 分 词 标准 不 同 ,也 不 容易 将 语料库 整合 后 进行 联合 训练 。 


注 任务 、CHUNK 识别 和 


目前 运用 BLSTM-CRF 模型 的 序列 标注 问题 (POS 词性 标 


E 务 、NER 命名 实体 识别 任务 ) 均 取 得 


放 


36 
R 


S 


了 不 错 的 效果 。 本 文 在 基于 BLSTM-CRF 模型 的 基础 上 ， 提 出 
了 一 种 对 多 钟 语料库 联合 训练 的 方法 来 进行 中 文 分 词 任务 。 使 
双向 长 短 时 记忆 模型 (BLSTM) 和 条 件 随机 场 模型 (CRF), 

各 中 文 分 词 任务 转换 为 一 个 字符 级 的 序列 标注 问题 。 本 文中 使 
] SIGHAN Bakeoff 2005 的 数据 外 
和 CTB6(Chinese TreeBank6.0 数据 集 ) 进 行 实 验 ， 实验 1 是 分 别 


PKU, MSR, AS, CITYU 


YE 


对 5 个 数据 集 单独 学 习 训练 ， 实 验 2 是 使 用 全 部 数据 集 联 合 学 


习 共 同 训练 。 实 验 中 在 输 
和 句 尾 各 自 添 加 一 对 标志 符 。PKU 数据 集 的 句子 标志 符 
<PKU></PKU>; MSR 数据 集 的 句子 标志 符 <MSR> </MSR>; 
AS 数据 集 的 句子 标志 符 <AS> «AS»; CITYU 数据 集 的 句子 标 
志 符 <CITYU> </CITYU>; CTB6.0 数据 集 的 句子 标志 符 <CTB> 


全 入 端 为 不 同 语料库 的 输入 语句 的 句 首 


</CTB>。AS 数据 集 和 CITYU 数据 集 是 繁体 中 文 数据 集 , 在 联 


hinaXiv 合 作 期 刊 


登 义 ， 等 : 一 种 基于 双向 LSTM 的 联合 学 习 的 中 文 分 词 方法 


Ri 


合 训 练 前 ， 使 用 HanLP 工具 将 繁体 中 文 转换 为 简体 中 文 。 


1 ”中 文 分 词 神经 网 络 模型 架构 


中 文 分 词 任务 通常 被 认为 是 基于 字符 的 序列 标注 任务 。 标 
记 输入 句子 中 的 每 个 字符 , 使 用 标签 集 T= {B,M,E,S} 进 行 标记 。 
B 表示 一 个 词 的 开始 字 ，M 表示 一 个 词 的 中 间 字 ，E 表示 一 个 
词 的 结束 字 ，S 表示 单字 词 。 
基于 神经 网 络 的 序列 标注 任务 通常 由 三 部 分 组 成 : a) 字符 
巾 入 层 ， 文 本 向 量化 表示 ; b) 多 个 神经 网 络 转换 层 ; c) 标签 
E 理 层 。 整 体 结构 如 图 1 所 示 。 


WAND c œ œ œ 


图 1 中 文 分 词 模型 框架 

给 定 长 度 为 na 的 文本 序列 cl:9， 大 小 为 k 的 窗口 从 文本 序 
列 的 第 一 个 字 co 滑动 至 最 后 一 个 字 c 中 。 如 图 1 所 示 ， 对 序列 
中 每 一 个 字 cb, 当 窗 口 大 小 为 5 时 , 上 下 文 信息 (ct2) ,ccD ,co， 
cD, ce) 输入 到 查询 表 (Lookup Table)， 当 字 的 范围 超过 序 
列 边界 时 ， 用 两 种 特殊 字符 “<S>” 和 “</S>” 隔 开 ， 以 此 保证 输 
入 字符 大 小 固定 为 k。 将 查询 表 中 获得 的 字符 向 量 连 接 成 整体 
向 量 Yo e Ra APH =kxd 。XO 经 过 一 层 线性 转换 得 到 
ZO ,线性 转换 式 如 式 〈1) 所 示 。 
Z? -W xXx? +b, a) 


W, e g^ EEREN H, ERIT AG BA p eR" 。 


激活 函数 oc， 通常 使 用 sigmoid 函数 和 tanh 函数 ， 如 式 (2) 所 


ZN o 


h? 2o(Z?) (2) 
再 次 进行 线性 变化 ， 如 式 〈3 ) 所 示 。 
y? -W,x h? +b, 6) 


其 中 : W, c RP , D 为 词 位 标签 词 。 y? eR? , y? 中 每 一 个 


元 素 代 表 对 应 词 位 标签 的 得 分 。 通 过 对 字符 序列 中 的 每 个 字符 
进行 以 上 的 计算 ,可 以 得 到 该 字符 序列 中 每 个 字符 的 标签 得 分 
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矩阵 。 


由 于 一 个 字符 序列 中 ,字符 标签 之 间 存 在 强 依赖 关系 , 因 


此 ,可 以 引入 一 个 矩阵 4 来 表示 字符 标签 之 间 的 转换 关系 。 A, 


表示 标签 i 转移 到 标签 j 的 概率 。 通 过 后 向 传播 算法 ,从 训练 集 


学 习 得 到 概率 和 矩阵 A 。 


输入 


4 


Ch 
登 义 ， 等 : 一 种 基于 双向 LSTM 的 联合 学 习 的 中 文 分 词 方法 


图 中 的 每 个 节点 表示 在 每 个 时 刻 RNN 网 络 的 一 层 。wi 是 


E 
pzd 


到 隐藏 层 的 连接 权 值 ， w2 是 上 一 时 刻 隐 藏 层 到 当前 隐藏 


神经 网 络 模型 在 中 文 分 词 任务 中 表现 出 较 好 的 效果 ， 


丢失 了 


述 
但 是 由 于 窗口 大 小 的 限制 ,模型 不 能 学 > 


2 基于 BLSTM 的 模型 架构 


2.1 文本 向 量化 


量化 表示 。 使 用 


可 以 刻画 字 与 字 在 语义 和 语法 上 的 相关 性 


习 窗 


口外 的 上 下 文 信息 


距离 依赖 信息 ， 对 分 词 的 准确 性 有 影响 。 而 LSTM 则 
口 的 限制 ， 可 以 利用 长 距离 的 上 下 文 信息 。 


利用 神经 网 络 模型 处 理 中 文 分 词 问题 ， 首 先 需要 将 文本 向 
个 特定 维度 的 特征 向 量 代表 字符 。 


字符 向 量 


T 


层 的 连接 权 值 ， ws 是 隐藏 层 到 输出 层 的 连接 权 值 。RNN 中 每 时 


刻 的 权 值 都 是 


t 时 刻 隐藏 层 输 出 为 


其 中 : xo 是 t 时 


输入 


* 享 的 ,当前 时 刻 的 输出 依赖 于 上 一 时 刻 的 输出 。 


E 
ZN 


hn? = g(Uh ? + WX? +b) 
} 刻 的 输入 ， pn 是 tl 时 刻 的 隐藏 状态 ，U 是 


(4) 


到 隐藏 层 的 权 值 矩阵 , 丈 是 隐藏 层 到 输出 层 的 权 值 矩阵 ， 


传统 的 RNN 只 能 利 ) 
任务 中 ， 需 要 利用 


时 利 


至 模型 中 ， 使 / 


| 


g 是 激活 函数 通常 是 tanh 函数 。 


上 文 消息 ， 而 在 许多 自然 语言 处 理 


上 下 文 信息 ， 因 此 扩展 了 双向 
序列 中 的 历史 和 未 来 信息 。 


RNN 能 够 同 
将 序列 信息 分 两 个 方向 输入 


j 两 个 隐藏 层 保存 两 个 方向 的 输入 信息 ， 


将 隐藏 


成 为 


经 网 络 的 输入 。 使 用 训练 语 料 集中 的 所 有 字 建 立 一 个 大 


且 作为 字符 特 和 有 


矩阵 ，d 是 字符 向 量 的 允 


小 为 d4XN 的 汉字 字 


EHE, N 是 字典 的 


大 小 ， 构 造 了 一 个 字符 到 字 和 嵌入 的 查找 表 ， 将 输入 的 中 文字 符 


转换 为 字 财 入 向 量 ， 作 为 模型 的 输入 。 研 究 表 


明 ,使 用 大 规模 无 


监督 学 习 得 到 的 字 向 量 作为 输入 矩阵 的 初始 值 比 随机 初始 化 有 
着 更 优 的 效果 [09。 本 文中 使 用 word2vect 1 在 中 文 维基 百科 语 


料 库 预 训练 获得 字符 向 量 。 
2.2 ”循环 神经 网 络 (RNN) 


=Z BEBE 
E. 252 
E 


在 传统 的 神经 网 络 模型 中 ， 是 从 输入 层 到 隐 含 层 再 
之 间 是 全 连接 的 ， 每 层 之 间 的 节点 是 无 连接 的 。 处 
理 每 个 时 刻 的 信息 时 是 独立 的 。 而 循环 神经 网 络 RNN 在 隐藏 
层 中 增加 节点 中 的 互 连 ， 隐 藏 层 的 输入 不 仅 包括 输入 层 的 输出 


到 输出 


记忆 并 应 | 


上 一 时 刻 隐藏 层 的 输出 。 网 络 模 型 会 对 前 面 的 信息 进行 
于 处 理 当 前 输出 数据 的 计算 中 。RNN 的 模型 结构 如 


图 2 所 示 。RNN 


按时 间 顺 序 展开 的 示意 图 如 图 3 所 示 。 


输出 层 
隐藏 层 
输入 层 
Wa W: W 
隐藏 层 w; Ww. Ww. wW; E 
w, w, Wi 
输入 层 。。 e 
时 刻 t-l t tel 


结构 示意 


2.3 LSTM 长 短 时 记忆 模型 
长 短 时 记忆 模型 (LSTM) 
E, RNN 可 以 处 理 


在 理 


论 


输出 层 ee 


层 相 应 的 输出 连接 到 相同 的 输出 层 。BRNN 的 网 络 结构 展开 示 
意图 如 图 4 所 示 。 


后 向 层 


前 向 ER 


输入 层 


时 刻 "t t 


图 4 


BRNN 展开 结构 示意 图 


2 是 循环 神经 网 络 的 变 体 。 尽管 


于 梯度 消失 / 爆 | 


任何 长 距离 依赖 问题 , 但 实际 上 ， 由 


^E fa] rf 4 XE Sz 3E. LSTM 通过 引入 门 机 制 和 记 


忆 单 元 为 此 提供 了 解决 方案 ， 用 LSTM 单元 代替 RNN 中 的 隐 
藏 层 。 


LSTM 单元 结构 


图 如 图 5 所 示 。 


Forget Gate 


图 5 LSTM 结构 图 


LSTM 中 保存 的 历史 信息 受 输入 门 、 遗 忘 门 和 输出 门 控 制 。 
x 是 输入 数据 ，h 是 LSTM 的 单元 输出 ，c 是 LSTM 记忆 单元 
的 值 。 输 入 门 i， 遗 忘 f， 记 忆 单 元 ce 和 输出 门 0。 
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录用 稿 

€^ = tanh(W, x? -W, AC 4p) 6) 
其 中 :29 是 当前 时 刻 记 忆 单 元 的 候选 值 ，xo 是 + 时 刻 的 输入 
数据 ，W_ t 时 刻 输入 数据 的 权 值 ，he-0 是 上 一 时 刻 LSTM 


fff th. Ww, 对 应 上 一 时 刻 LSTM 单元 的 输出 的 权 值 ，b 是 偏 
i? 2 o(W x? - W,h + Wc eb) 6) 
Hp: go 是 输入 门 当 前 的 状态 值 ，;o 受 当前 输入 数据 x0 、 


一 时 刻 LSTM 的 输 
Wa b W; ^ Wa 分 别 


E ped 和 上 一 时 刻 记忆 单元 值 ec- 的 影响 。 
为 对 应 的 权 值 。 


f? oV x Wm W eb) O 


门 当 前 的 状态 值 ， 遗 忘 门 是 控制 历史 信息 对 
Wj 分 别 是 对 应 遗忘 门 的 权 


其 中 :Fo 是 遗忘 
当前 记忆 单元 的 影响 。 酌 ，、 瑟 /、 
值 。 


E ~) 
c Eg oc" D +i” Oc 


其 中 : 
逐 点 相 乘 。 


c 中 是 t 时 刻 记忆 单元 的 状态 值 ，Q 表示 元 素 间 的 点 积 ， 
记忆 单元 的 状态 值 由 输入 门 和 遗忘 | 
o? 2 o(W, x? +W, h^? Wc" ep) 
输出 门 的 输出 状态 记忆 单元 状态 值 的 输出 。 
h? - o0 © tanh(c^?) 
Hp: po 是 t 时 刻 LSTM 单元 的 输出 状态 值 ， 当 
藏 状态 。 
LSTM 的 门 机 制 使 得 模型 可 
同时 获取 上 下 文 信息 , 采用 双向 
藏 状态 ho 可 表示 如 下 : 
i? =h e yo un 
其 中 ， eH yo 分 别 是 LSTM 中 在 t 时 刻 输入 数据 的 前 向 和 
后 向 的 隐藏 状态 ，@ 表示 整合 操作 。 
2.4 标签 推断 CRF 层 
对 于 基于 字符 的 中 文 分 词 任务 ， 本 文 需要 考虑 相 邻 标签 间 
的 依赖 关系 。 例 如 ，B《〈 开 始 ) 标签 后 面 应 该 跟 一 个 M (中 间 ) 
标签 或 者 EE (结束 ) 标签 , 而 一 个 M 标签 后 面 不 能 跟 一 个 B 标 
签 或 者 S 标签 。 因 此 ， 不 是 独立 地 使 用 o 来 作 标签 决策 ， 而 


] 共 同调 节 。 


IH. o” , jen 


Zy 
za 
m 
z= 
Er 


以 捕捉 长 距离 历史 信息 ， 为 了 
LSTM， 因 此 ，BLSTM 中 的 隐 


是 使 用 条 件 随机 场 (CRE) 来 共同 建 模 标签 序列 。 
对 于 给 定 的 句子 x= Qs) ,和 对 应 的 预测 的 标签 

y 2 Op yaaa y, ,预测 评估 分 数 定义 如 下 : 
sD EDA, tRy) (12) 


4 是 一 个 转换 分 数 矩 阵 ， 4 , 是 衡量 标签 i 到 j 的 分 数 ， 
PP ,代表 字符 x 的 第 y, 个 标签 的 分 数 。 尸 定义 如 下 : 
P =W,h® +b, (13) 
其 中 : Qo 是 BLSTM 中 t 时 刻 输入 数据 xo RERS, W, 是 
TUBAB FE, p. 是 偏 置 。 


在 CRF 层 ， 句 子 x 被 标记 为 序列 y 的 可 能 性 


F: 


di Eb P7 


s(x,y) 


s(x, y) 
yeYy 


其 中 : y 表示 给 定 句子 x 的 所 有 可 


AC fs Fs A ADU fd 


预测 结果 输出 得 分 最 高 


能 序列 y 


的 序列 ys, 计算 公式 如 下 : 


y*—arg max, s(x, y) 


可 以 使 


] Viterbi 算法 ( 


解码 过 程 中 的 效率 问题 。 


3 ”实验 


3.1 


本 文 使 


SIGHAN2005) 和 CTB6 (来 


几 个 数据 集 的 分 词 标 ; 


结果 与 分 析 


实验 数据 
的 实验 数据 集 是 PKU、MSR、AS、CityU (来 自 
Chinese TreeBank 6.0 )。 


学 研究 所 提供 


开 , 组 织 机 构 等 


语 先 切 分 再 组 合 。 例如 欧阳 / 修 、 中 国 /计算 机 /学 会 、 


科 文 /组 织 。 
MSR zx 


人 民 代 表 大 会 、 
AS 由 台湾 上 
定 的 分 词 规范 


词 例子 : FE 
社 。 


E 


的 语料库 。 


是 微软 亚洲 研究 


水 利 部 长 洒 
FP 央 研究 院 提供 
类 似 同 时 也 与 台 
E SER 、 


二 二 八 /事变 、 


各 


的 集合 。 


概率 计算 如 


(14) 


训练 时 ， 


[法 最 大 化 序列 ) H logy |x) 值 -解码 时 ， 


(13) 


种 动态 规划 算法 ) 来 解决 训练 和 


不 同 , PKU 是 由 北大 计算 语言 


其 分 词 特点 之 


一 是 姓名 中 姓 和 名 要 分 
在 语法 词典 中 的 直接 标记 ， 大 多 数 短语 性 


的 词 


院 所 提供 的 语料库 , 其 分 词 
量 的 命名 实体 构成 的 长 单词 , 例如 联合 国教 科 文 组 


KA ERE 


特点 是 由 
全 国 


织 、 


的 语 料 库 , 分 词 


[水 利 委员 会 、 葛 洲 坝 集团 公司 。 
规范 与 北大 制 


湾 地 区 的 语言 使 ) 


12] 


惯 相 关 ， 分 


台北 市 /第 


CityU 1 


区 的 使 ) 


CTB 6.0 是 宾 州 大 学 汉语 树 库 j 
按照 句子 内 间 
对 比如 表 1 所 示 


不 同 的 分 词 标准 
表 1 


习惯 影响 


过 句法 标注 的 数据 ， 


香港 城 


不 


大 学 提供 
。 分 词 例句 : 本/ 越 /列车 
pb 的 语料库 ， 该 语料库 是 经 
了 结构 形成 的 句子 树 。 


的 语料库 ， 


ss 


k/ 


同 语料库 分 词 标准 对 比 


言 用 /合作 


分 词 规范 受 香港 地 


/ 八 / 卡 / 持 车 。 


数据 集 


句子 示例 


PKU 
MSR 
AS 
CityU 
CTB 


sp 


8H / 到 达 
王 明 / 到 达 / 奔驰 公司 

/ $E / 宝 士 / 公司 
/ $E / 平治 / 公 
/ 到 达 / 奔驰 / 公司 


HH 
ual 
au 


ni 


ni| 


/ 奔驰 / 公司 


实验 时 随机 选择 训练 数据 中 的 90% 的 数据 作为 训练 集 ， 剩 


下 PAAA 


所 有 


的 数据 在 输入 前 需要 经 过 


,英文 单 


寸 预 处 理 ， 将 


词 蔡 换 成 各 ， 数 字 蔡 换 成 $， 在 大 规模 


tn 在 料 上 进行 字 向 量 训练 ， 将 训练 完成 的 字 向 量 作为 


录用 稿 
本 次 实验 的 词 向 量 。 将 每 个 数据 集 的 输入 语句 都 添加 各 自 的 标 
志 符 ， 不 同 数据 集 带 有 标志 符 的 句子 形式 示例 如 表 2 所 示 。 当 


为 了 便于 评估 ， 本 文 使 


计算 最 终 输 出 的 分 值 时 不 计算 标志 符 。 


用 标准 bake-off 打分 程序 来 计算 准确 率 P, 召 回 率 R, Fl 分 值 。 
表 2 数据 集 输入 句子 形式 
数据 集 输入 句子 示例 
PKU <PKU> 王 明 到 达 奔 驰 公 司 </PKU> 
MSR <MSR> 王 明 到 达 奔 驰 公 司 </MSR> 
AS <AS> 王 明 到 哇 实 士 公 司 </AS> 
CITYU <CITYU> 王 明 到 吁 平治 公司 </CITYU> 
CTB <CTB> 王 明 到 达 奔 驰 公司 </CTB> 


实验 在 内 存 为 8 BG 的 Ubuntu 系统 上 进行 ， 程 序 采 / 
Python 语言 进行 编程 
模型 中 的 超 参 数 设置 如 表 3 所 示 
表 3 模型 超 参数 设置 


参数 参数 值 

上 下 文 窗口 长 度 k=5 

字符 向 量 长 度 d= 100 

隐藏 层 单元 数 h= 128 

初始 学 习 率 a=0.1 

Dropout 比率 p=0.2 

Batch b= 128 

3.2 ”实验 结果 分 析 

实验 1 将 每 个 数据 集 的 训练 数据 分 别 输入 至 模型 中 ， 对 
五 个 数据 集 单 独 进行 训练 。 实 验 结果 如 表 4 所 示 。 表 4 列 出 了 


不 同 数据 集训 练 的 性 能 。 


Chir 
章 登 义 ， 等 : 一 种 基于 双向 M 的 联合 


aXiva 


> (ERAF 
学 习 的 中 交 分 词 方法 


BLSTm F 95.1 96.8 9 


5:3 94.9 96.2 


表 4 不 同 数据 集 在 BLSTM 模型 上 的 性 能 /% 
数据 集 
性 能 (%) 
PKU MSRA CITYU AS CTB 
P 95.1 96.5 95.4 952 95.6 
R 94.6 96.3 94.8 953 951 
95.3 96.8 95.3 949 962 
X 5 中 列 出 了 本 文 提出 的 模型 与 其 他 模型 的 性 能 对 比 。 与 


文献 [6]、 的 模型 、 文 献 [8] 的 扩展 的 LSTM 模型 、 文 献 [9] 的 CNN 
和 LSTM 结合 的 模型 、 文 献 [13] 的 将 非 监 督学 习 方 法 应 用 于 
CRF 的 模型 和 文献 [14] 的 快速 高 效 的 基于 BLSTM 的 模型 变 体 
的 实验 结果 下 值 对 比 。 


表 5 不 同 模型 在 不 同 数 据 测试 集 上 下 值 对 比 结果 (%) 
数据 集 
模型 (%) 
PKU MSRA CITYU AS CTB6 

Zheng(2013)'5 F 924 93.3 S z 5 
Chen(2015)I F 957 964 94.9 
Zhang! (2016) F 957 977 96.0 
ZHAO(2008)!3 F 954 976 961 95.7 943 

cai(2017)04 F 954 970 954 952  - 


Ab E 


He xx 
95.1%, CITYU 的 ; 
CTB6.0 
比 , 使 
但 不 是 最 佳 
合 的 模型 在 
高 达 95. 
统 的 非 ! 
的 效果 较 其 他 方法 更 好 ， 
值 达 


表 4 列 出 了 BLSTM 模型 在 不 同 数据 集 上 的 性 能 ， 可 以 看 
出 BLSTM 模型 能 达到 较 好 的 效果 
好 。MSR 测试 集 的 准确 率 高 达 96.5%, PKU 的 


ETARIK R] 95.4%, AS 的 准 


的 准确 率 达 到 95.696. 1 
J] BLSTM 模型 对 单个 数 ] 


T 


监督 学 习 和 监督 学 习 的 方法 相 结合 


95.7%。 而 本 文 应 


。MSR 数据 集 的 各 项 训练 性 


7%, MSR 的 Fl 值 高 达 97.7%。Zhao03] 等 
在 繁体 中 文 数据 集 上 
CITYU 的 Fl 值 达 96.1%, AS 
ji BLSTM 模型 在 单个 数据 集 上 的 训 


住 确 率 达到 
E 确 率 达 到 95.2%， 


表 5 可 以 看 出 , 与 其 他 模型 相 
集训 练 可 以 达到 较 好 的 效果 ， 
的 效果 。Zhang[9] 等 人 将 卷 积 神经 网 络 和 LSTM 结 
简体 中 文 数据 集 上 的 训练 效果 最 好 ，PKU 的 Fl fü 


等 人 提出 的 传 


的 Fl 


练 效果 虽然 没有 达到 最 高 的 性 能 ,但 也 取得 了 较 好 的 分 词 效果 ， 


其 中 CTB 的 Fl un 96.2%, Lt 


其 他 方法 


的 Fl 值 稍 高 。PKU 


的 Fl 值 达 到 95.1%, MSR 的 F1 值 达到 96.8%，CITYU 的 Fl 


值 达到 95.3%，AS 的 Fl 值 达到 94.9%， 单 个 数 ] 
较 好 的 分 词 效果 。 


B 集 都 取得 了 


实验 2 ”对 五 个 数据 集 联合 


训练 。 将 带 


标志 符 的 输入 语 


句 共同 输入 至 一 个 模型 中 进行 联合 学 习 训练 。 联 合 训 练 的 结果 
与 单个 数据 集训 练 的 结果 对 比如 表 6 所 示 。 
实验 2 训练 的 结果 与 文献 [15] 提 出 的 使 用 多 个 数据 集 进行 
对 抗 性 学 习 方法 对 比 ， 结 果 如 表 7 所 示 。 
表 6 单个 数据 集训 练 与 多 个 数据 集 联合 训练 的 结果 对 比 (%) 
性 能 (%) TRUE 
PKU MSRA CITYU AS CTB 
单个 训练 95.1 96.8 95.4 952 95.6 
联合 训练 95.6 97.4 95.8 96.0 95.8 
单个 训练 94.6 96.3 94.8 95.3 95. 
R 联合 训练 96.2 97.3 95.2 952 9641 
单个 训练 95.3 96.5 95.3 94.9 962 
: 联合 训练 95.8 97.1 95.2 94.7 95.8 


表 7 多 语料库 联合 训练 实验 结果 对 比 (%) 


TUM (6) sia 

PKU MSRA CITYU AS CTB6 

P 949 959 954 942 96) 

CHEN(017)5! R 938 96.1 957 951 963 

F 943 96.0 95.6 | 946 962 

P 956 974 958 | 960 9538 

联合 训练 R 962 97.3 95.4 952 961 

F 958 971 952 | 947 958 
由 表 6 可 知 ， 大 规模 数据 集 联合 训练 所 得 的 结果 比 数 据 集 
分 别 在 模型 上 训练 的 效果 更 好 。 联 合 训练 时 简体 中 文 数据 集 
PKU、MSR 的 各 项 性 能 较 单 独 训练 时 均 有 提高 ，AS 的 性 能 略 
有 下 降 。 联 合 训练 PKU 数据 集 的 准确 率 P iA 95.6%, AER R 


值 96.2%，F1 值 95.8% ; 


MSRA y} 


1 练 集 的 ; 


EMIK P 达 97.496, 


n 


3& R [i 97.396, F1 [fü 97.196 ; 


确 率 P 3A 96.095, 


I 


J 知 ， 联 合 训练 中 大 部 分 数 提 


H, AS 和 CTB 数 ] 


合 训练 更 好 ， 原 因 是 AS 语 料 
体 语料库 ， 联 合 几 种 语料库 共同 训 比 
HanLP 工具 将 繁体 
现 词语 的 简 繁 体 的 不 对 应 情况 ， 导 致 
独 进行 有 监督 的 训练 的 情况 稍 差 。 宾 州 大 学 汉语 数 库 


值 95.2%，F1 值 95.2% ; 
可 率 R 值 95.2%，F1 值 94.7% ; CTB 训 
EK P 达 95.8%， 召 回 率 R 值 95.196, FI 值 95.8%。 
训练 中 ，PKU、MSRA 和 CITYU 的 测试 集 的 结果 均 较 单 


CITYU 训练 集 的 准确 率 P 


AS 训练 集 的 准 


虽 集 的 训练 效果 较 


单独 训练 的 效果 较 联 
库 是 台湾 中 央 研 究 院 提供 中 文 繁 


CTB 是 带 标 签 的 树 库 文件 , 语料库 中 
其 于 短语 结构 的 LDC 
子 的 结构 ,与 其 他 语料库 的 标注 
比 该 语 料 单独 训练 
de 7 可 知 ， 本 文中 将 五 个 数 
所 提出 的 对 八 种 数据 集 进行 对 抗 性 学 习 训 练 所 取 
所 提出 的 方法 与 之 性 能 相当 ， 
集 、MSRA 数据 集 和 AS 数据 集 的 训练 结果 略 优 卫 
提出 的 方法 相 比 chen 等 人 设计 的 
。Chen 等 人 提出 的 模型 
各 运 于 与 单独 对 每 个 语 料 
其 合 训练 的 研究 还 有 很 大 


较 ， 发 现 本 文中 


chen 等 人 的 实验 结果 。 本 文 
模型 要 更 为 简便 ， 却 
对 多 种 语料库 对 抗 怕 
FEIET VILE RO 2303 


能 达到 相当 的 结果 


学 习 训 练 的 效果 


。 对 多 语料库 进行 


中 文 树 库 采 


时 ， 本 文 使 用 数据 前 用 
Ph 文 转 为 简体 中 文 ， 在 转换 过 程 中 ， 可 能 出 
关 合 训练 时 ， 训 练 结果 较 


的 语 料 是 经 过 句法 标注 的 ， 
用 句子 的 结构 成 分 描述 句 
方法 不 同 , 是 导致 联合 训练 时 ， 
的 效果 差 的 原因 。 
进行 联合 训练 时 ， 与 


YE 


个 


本 文 针对 自然 语言 处 理 中 的 中 文 分 词 各 


H 


E 务 ， 提 出 的 基于 


BLSTM 和 CRF 结合 构建 J 


且 与 现 有 的 提出 的 多 标准 


个 深度 
Ef. IA dug 
来 表明 数据 属于 哪 一 个 数据 自 
实验 结果 表明 该 分 词 模型 能 够 达到 state-of-the-art. 的 效 


经 网 络 模型 。 针 对 多 个 
的 句子 加 入 一 对 各 自 独 
， 对 数据 进行 共同 


本 识别 等 任务 


同 训练 的 其 他 复杂 分 词 模 型 
的 模型 结构 更 为 简单 有 效 。 未 来 可 以 将 该 方法 
Ho BLSTM-CRF 模型 应 用 于 多 种 


取得 了 较 好 的 效果 ,本 文 在 应 用 该 模型 的 基础 上 ， 


联合 多 种 语 料 


目前 提出 的 方法 的 模型 较为 简 
任务 的 学 习 方 法 的 研究 。 


* 管 本 文 提 出 的 模型 在 中 文 分 词 任务 


仍 有 需要 改进 的 地 方 。 文 中 对 多 个 数据 集训 练 时 ， 利 ) 


网 和 乙 太 网 ， 总 线 和 汇流 排 等 。 
中 文 数据 集 的 分 词 效 果 没 有 其 人 


进行 训练 ， 进 行 中 文 分 词 任务 ， 取 得 了 较 好 的 
EE， 未 来 可 进一步 进行 多 


区 得 了 比较 好 的 效 


HanLP 工具 将 繁体 中 文 转换 为 简体 中 文 。 简 繁 转换 中 的 简 繁 分 


ray 


能 会 影响 最 终 的 分 词 结果 ， 例 如 打印 机 和 印 表 机 ， 以 太 
实验 也 表明 联合 训练 时 ， 繁 体 
方法 训练 的 分 词 效果 好 。 简 体 


中 文 与 繁体 中 文 之 间 存 在 的 差异 性 也 是 联合 多 语料库 训练 存在 
的 问题 2 
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一 。 联 合 语 料 库 共同 训练 ， 数 据 集 较 大 ， 训 练 的 时 间 


较 单 个 语料库 训练 的 时 间 更 长 ， 所 需 空间 更 大 ， 这 也 是 多 语 料 


库 训 练 的 需要 改进 的 方向 。 


参考 文献 : 


[1] 


Xue Nianwen, Converse S P. Combining classifiers for Chinese word 
segmentation [C]// Proc of the Ist SIGHAN Workshop Workshop on 
Chinese Language Processing. Stroudsburg: Association for Computational 
Linguistics, 2002: 57-63. 

Boser B E, Guyon I M, Vapnik V N. A training algorithm for optimal margin 
classifiers [C]// Proc of the 5th Annual Workshop on Computational 
Learning Theory. New York: ACM Press, 1992: 144-152. 

Berger A L, Pietra V J D, Pietra S A, et al. A maximum entropy approach to 
natural language processing [J]. Computational Linguistics, 1996 22 (1): 39- 
71. 

Eddy S R. Hidden Markov models [J]. Current Opinion in Structural Biology, 
1996 6 (3): 361-365. 

Lafferty J D, McCallum A, Pereira F C N. Conditional random fields: 
probabilistic models for segmenting and labeling sequence data [C]// Proc 
of the 18th International Conference on Machine Learning. San Francisco: 
Morgan Kaufmann Publishers Inc. 2001: 282-289. 

Zheng Xiaoqing, Chen Hanyang, Xu Tianyu. Deep learning for Chinese 
word segmentation and POS tagging [C]// Proc of Conference on Empirical 
Methods in Natural Language Processing. 2013. 

Collobert R, Weston J. A unified architecture for natural language processing: 
deep neural networks with multitask learning [C]// Proc of the 25th 
International Conference on Machine Learning. Helsinki: International 
Machine Learning Society, 2008: 160-167. 

Chen Xinchi, Qiu Xipeng, Zhu Chenxi, et al. Long short-term memory 
neural networks for Chinese word segmentation [C]// Proc of Conference on 
Empirical Methods in Natural Language Processing. 2015: 1197-1206. 
Zhang Meishan, Zhang Yue, Fu Guohong. Transition-based neural word 
segmentation [C]// Proc of Meeting of the Association for Computational 


Linguistics. 2016: 421-431. 


[10] Santos C N D, Xiang Bing, Zhou Bowen. Classifying relations by ranking 


with convolutional neural networks [J]. Computer Science, 2015, 86 (86): 


132-137. 


[11] Mikolov T, Chen Kai, Corrado G, ef al. Efficient estimation of word 


representations in vector space [J]. Computer Science, 2013. 


[12] Graves A. Long Short-term memory [J]. Neural Computation, 1997, 9 (8): 


1735-1780. 


[13] Zhao Hai. Unsupervised segmentation helps supervised learning of 


character tagging for word segmentation and named entity recognition [C]// 


Proc ofthe 6th SIGHAN Workshop on Chinese Language Processing. 2007. 


[14] Cai Deng, Zhao Hai, Zhang Zhisong, et al. Fast and accurate neural word 


201807.00065v1 


chinaXiv 


录用 稿 


segmentation for Chinese [C]// Proc of the 55th Annual Meeting of the 
Association for Computational Linguistics. 2017. 
[15] Chen Xinchi, Shi Zhan, Qiu Xipeng, et al. Adversarial multi-criteria learning 
for chinese word segmentation [J]. Computer Science, 2017: 1193-1203. 
[16] Huang Zhiheng, Xu Wei, Yu Kai. Bidirectional LSTM-CRF models for 


sequence tagging [J]. Computer Science, 2015. 


hinaX iA fERAFI 


章 登 义 ， 等 : 一 种 基于 双向 LSTM 的 联合 学 习 的 司 方 法 


[17] Lample G, Ballesteros M, Subramanian S, et al. Neural architectures for 
named entity recognition [C]// Proc of the North American Chapter of the 
Association for Computational Linguistics. 2016. 

[18] Cai Deng, Zhao Hai. Neural word segmentation learning for Chinese [C]// 
Proc of the 54th Annual Meeting of the Association for Computational 


Linguistics. 2016: 409—420. 


